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基于 形状 信息 的 Bayes 分 类 方法 * 
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摘 要: 本 文 提出 了 一 种 新 的 基于 形状 信息 的 Bayes 分 类 方法 ， 以 实现 对 图 像 中 单个 物体 的 分 类 。 该 方法 
首先 运用 图 像 边缘 提取 各 配 准 算 法 ， 构 造 一 个 形状 相似 性 能 量 泛 函 ， 并 利用 其 计算 形状 信息 的 先 
验 概 率 。 然 后 ， 结 合 图 像 中 物体 其 它 特征 的 后 验 概 率 ， 通 过 Bayes 方法 进行 分 类 。 本 文 将 该 方法 
应 用 于 一 个 病原 菌 图 像 分 类 的 实际 问题 ， 实 验 结果 表明 ， 该 方法 是 十 分 有 效 的 ， 不 仪 降低 了 分 类 
所 需 的 特征 维 数 ， 而 且 提 高 了 分 类 精度 ， 并 能 满足 实际 问题 中 所 要 求 的 计算 速度 。 

关键 词 : Bayes 分 类 ; 形状 信息 ， 图像 配 准 ， 单 个 物体 

分 类 号 : AMS(2000) 68T10 中 图 分 类 号 : 023; 0175 文献 标识 码 : A 


图 像 分 类 是 图 像 理解 、 图 像 检 索 等 领域 的 基本 问题 ， 在 视频 监控 、 卫 星 图 像 、 医 学 图 像 等 
实际 场合 都 有 比较 广泛 的 应 用 ;同时 由 于 图 像 本 身 的 大 数据 量 特点 ， 研 究 图像 的 分 类 对 于 模式 
识别 的 研究 也 具有 重要 的 理论 意义 ， 涉 及 到 图 像 处 理 与 计算 机 图 像 学 研究 中 的 很 多 基本 方面 ， 
例如 特征 提取 [th' 习 、 形 状 相 似 性 度量 BS, 各 等 。 

图 像 分 类 中 的 单一 物体 图 像 分 类 问题 ， 即 每 幅 样 本 图 像 中 只 存在 单一 待 分 类 物体 情况 下 的 
分 类 问题 ， 是 图 像 分 类 中 一 类 常见 的 问题 ， 并 且 具 有 非常 广泛 的 应 用 。 例 如 植物 病 斑 名 、 水 
果 回 、 鞋 底 花纹 由、 肿瘤 加 、 血 细胞 回 等 物体 图 像 的 分 类 问题 。 在 单 物体 图 像 分 类 问题 中 ， 物 
体 的 形状 信息 是 图 像 的 一 个 重要 特征 和 分 类 的 重要 依据 ， 但 形状 信息 具有 难于 描述 ， 数 据 维 数 
较 高 的 特点 ， 给 分 类 带 来 了 一 定 困 难 。 

Bayes 77 E09 是 模式 识别 的 基本 方法 之 一 ， 在 输入 数据 满足 假设 的 概率 分 布 的 情况 
下 ，Bayes 分 类 器 是 在 最 小 错误 率 条 件 下 的 最 优 分 类 器 ， 但 是 Bayes 方 法 的 概率 分 布 比较 
难于 估计 ， 尤 其 是 当 输入 数据 特征 维 数 较 高 的 情况 下 ， 还 会 给 分 类 过 程 本 身 带 来 额外 的 计算 复 
杂 度 。 

本 文 提 出 了 一 种 基于 形状 信息 的 Bayes 分 类 方法 ， 以 克服 以 上 提 到 的 困难 ， 达 到 简化 计算 
复杂 度 和 提高 分 类 精度 的 要 求 。 并 将 该 方法 运用 于 一 个 病原 菌 图 像 分 类 的 实际 问题 ， 实 验 结果 
表明 ， 与 其 它 不 考虑 形状 的 目标 分 类 方法 相 比 较 ， 本 文 提 出 的 算法 可 以 得 到 更 好 的 分 类 精度 ， 
同时 计算 速度 基本 相同 ， 满 足 病原 菌 分 类 识别 的 实用 要 求 。 
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2 基于 形状 信息 的 贝 叶 斯 分 类 方法 


在 多 类 识别 问题 中 ,假设 有 nn 类 样本 ， 设 表示 nn 个 类 别 的 集合 为 : Q = {X1, X2,…. ,Xn.}。 
设 测 试 样本 为 z， 由 适当 的 特征 信息 表示 。 欲 判断 测试 样本 z 属 于 0 中 的 哪 一 类 ， 最 好 基于 测 
试 样本 特征 信息 的 概率 来 确定 。 记 plz e X |z) 为 在 已 知 测试 样本 z 的 条 件 下 ，z 属于 X 类 的 
条 件 概 率 。 如 果 ! = argmaxici<np(z € Xi 17)， 就 判定 z 属 于 第 ! 类 。 通 常 根 据 Bayes 公式 计 
算 条 件 概率 ，p(z < Xile) = p(z|Xi)p(Xi)/p(z)， 其 中 p(z) 表示 测试 样本 z 出 现 的 概率 ， 根 
据 z 的 特征 计算 ， p(X;) 表示 XX; 类 出 现 的 概率 ， 一 般 由 专家 给 出 ， 称 为 先 验 概率 ，p(z |X;) 是 
在 Xi 类 的 情况 下 ，z 出 现 的 概率 ， 一 般 要 通过 训练 样本 特征 来 估计 ， 称 作 后 验 概率 。 

为 克服 形状 信息 提取 和 处 理 的 难点 ， 本 文 将 形状 信息 从 特征 中 分 离 出 来 处 理 。 定 义 样本 
的 新 变量 为 z := (£z,s)， 其 中 z 表 示 测 试 样本 z 的 传统 特征 信息 ， 如 面积 周 长 比 、 边 缘 长 度 
等 ，¢ 表示 测试 样本 zz 的 形状 信息 ， 并 采用 修正 的 Bayes 公式 


P(&|(Xi,5))p(Xils) 
p(s) l a 











plz € Xilz) = 


也 就 是 将 样本 zx 的 分 类 过 程 分 解 为 两 个 步骤 : 先 求 在 已 知 样本 z 形 状 特 征 5< 前 提 下 ，X; 类 
出 现 的 先 验 概率 p(Xi|s)。 严 格 的 说 ， 这 一 项 不 是 传统 Bayes 意义 下 类 别 的 先 验 概 率 ， 而 是 加 
入 了 测试 样本 的 形状 特征 ， 称 为 “形状 先 验 概率 ”， 然 后 求 在 已 知 X; 类别 和 形状 特征 5 前 提 
下 ,样本 zx 传统 特征 出 现 的 后 验 概率 p(z|(Xi,s))， 根 据 修正 的 Bayes 公式 得 到 分 类 结果 。 

HRE p| (Xa 相对 容易 计算 ， 例 如， 针对 病原 菌 分 类 的 实际 特点 ， 我 们 提取 传统 的 
HEHE Z = (£1,%2,%3) : 2 为 边缘 长 度 !，i = (4rS)/(2) 为 面积 3S 周 长 ! 比 ，5i3 为 归 一 化 的 灰 
度 分 布 ， 即 病原 菌 内 部 灰 度 值 落 在 [0, gb — ox}, (9% — 01, 9 + 0H], [go + On, 255] 三 个 区 间 的 像 
素 点 个 数 的 百分比 ， 其 中 % 是 图 像 中 的 背景 部 分 的 平均 灰 度 ，of 和 oz 是 根据 病原 菌 内 部 灰 度 
值 分 布 情况 取 定 的 2 个 固定 的 阔 值 。 对 各 类 训练 祥 本 传统 特征 的 统计 分 析 表 明 每 种 特征 都 服从 
高 斯 分 布 ， 又 由 于 特征 之 间 的 相对 独立 性 ， 我 们 假设 传统 特征 服从 联合 高 斯 分 布 。 按 极 大 似 然 
估计 ， 可 以 由 XX; 类 训练 样本 传统 特征 值得 到 相应 高 斯 分 布 的 均值 ji 与 方差 o;， 从 而 得 到 后 验 
BR p(Z | (Xa <))。 


3 形状 先 验 概率 


为 说 明 形 状 先 验 概率 p(X;|s) 的 计算 方法 ， 我 们 先 研究 刻画 形状 相近 的 指标 。 传 统 方法 一 
般 采 用 近 圆 性 、 偏 心率 、 边 界 点 坐标 集 等 形状 特征 ， 导 致 形状 信息 损失 较 多 ， 或 形状 特征 维 数 
过 高 。 为 此 ， 我 们 希望 找到 一 个 衡量 两 个 形状 相似 程度 的 数学 量 。 本 文 借用 文献 [11] 中 做 形状 
相似 性 配 准 所 用 的 能 量 泛 函 来 刻画 形状 相似 度 。 首 先 ， 我 们 利用 形态 学 方法 或 者 水 平 集 方法 对 
图 像 进行 边缘 提取 ， 将 需要 分 类 的 对 象 的 边界 提取 出 来 。 然 后 ， 将 待 分 类 对 象 的 边界 与 标准 形 
状 做 图 像 配 准 ， 计 算 形状 相似 度 。 

设 待 分 类 对 象 的 边界 为 闭 曲 线 S， 图 像 区 域 为 0， 被 S 包 围 的 前 景区 域 为 Rs， 背景 为 @ 中 
除去 Rs JKR. H S 可 以 用 符号 距离 函数 


0, TES, 
ds(z)= 4 +D(z,8S)>0, zE Rs, 
-D(z,S) <0, zERQ-— Rs 





第 6 期 EOS: 基于 形状 信息 的 Bayes 分 类 方法 997 





的 水 平 集 {x; osle) = 0} 表 示 ， 其 中 D(z,S) = minyes{\lz 一 yll2} 表示 点 z BHA S 的 距离 。 
由 于 相同 形状 物体 的 大 小 、 摆 放 的 位 置 和 方向 可 能 不 同 ， 只 有 经 过 刚性 变换 处 理 ， 才 能 归 类 。 
设 z = (zzz)， 刚 体 变换 4: co 至 定义 如 下 


cos@ sinb Ly H 
A(z1, £2) =a + ， 
一 snb cosb T2 v 


其 中 a 表示 缩放 因子 ，9 表 示 旋 转角 度 ，j、v 表示 平移 。 下 面 也 用 符号 .4 代表 这 4 个 参数 。 记 
曲线 S 经 .4 变换 后 的 像 为 r。 因 为 


D(é,7) = min ||ê ~ dla = amin le — ylz = D(z, S). 


所 以 如 (2) = ads(z)o 
Bey 为 标准 形状 ， 为 刻画 曲线 S 与 了 的 相似 程度 ， 在 图 像 配 准 中 ， 通 常 采用 能 量 泛 函 


Q(S.1) = mn | (ads(z) - 5(A@))"ae (2) 


也 就 是 说 ， 通 过 最 佳 的 刚性 变换 4， 两 条 曲线 S 和 7 的 相似 程度 可 以 用 泛 函 数值 &(S,7) 表 
示 。Q@Q(S,7) 值 越 小 ， 两 条 曲线 越 相 似 。 但 是 ， 如 果 在 整个 图 像 区 域 久 上 计算 泛 函 @(S,7Y) 表 达 
式 中 的 积分 ， 那 么 计算 量 很 大 。 实 际 上 我 们 只 关心 区 域 上 样本 的 边界 曲线 S。 因 此 ， 我 们 取 
相似 性 能 量 泛 函 为 


B(S,7) = min | Wa (ds(2))(a¢s(2) - ts( A) dm, (3) 
其 中 


0， 否则 


是 一 个 边界 检测 函数 ， 其 中 6 是 控制 选取 感 兴趣 区 域 大 小 的 参数 ， 本 文 取 f6 = 0.5 个 像素 间 
距 。 于 是 ， 积 分 求 和 过 程 实际 上 只 在 边界 附近 执行 ， 大 大 减少 了 计算 量 。 又 由 函数 的 定义 可 
见 ， 在 曲线 围 成 区 域 的 中 心 ，$ 值 较 大 。 这 就 意味 着 在 衡量 两 条 闭 曲 线 的 相似 性 时 ， 闭 曲线 所 
围 区 域 的 中 心 点 有 着 很 大 的 决定 权重 。 因 此 ， 在 计算 形状 相似 性 能 量 泛 函 BE(S,Y) 前， 我 们 先 
对 两 个 形状 做 中 心 匹 配 ， 也 为 随后 求 极 小 元 .4 的 迭代 算法 找到 一 个 较 好 初 值 。 

直观 想像 便 可 知 ， 形 状 先 验 概率 p(X;|<) 应 当 反 比 于 测试 样本 z 的 形状 sc 与 类 别 X; 的 形状 
之 间 的 相似 度 能 量 泛 函 。 类 别 X; 的 形状 由 训练 样本 的 形状 集 组 成 。 如 果 将 测试 样本 与 每 个 训 
练 样本 进行 比 对 ， 计 算 量 太 大 。 为 了 减 小 计算 复杂 度 ， 我 们 在 每 一 类 别 i 的 训练 样本 集中 ， 利 
用 专家 知识 选择 具有 代表 性 的 形状 ， 这 里 的 选择 可 以 是 不 唯一 的 。 于 是 ， 对 每 一 类 别 i 选 取 
的 形状 代表 集合 Ro RITEK p(X: ls) x Ele, R) l, AF E(x, R) 表示 样本 xz 与 形状 代表 集 
E Ri 的 形状 相似 性 能 量 泛 函 ， 其 定义 为 


1, # : 
veld) = | Be 


E(x, Ri) = min E(s,7). 


E(x, Ri) ERA, WHA ri Xi 类 越 接近 。 所 以 ， 在 已 知 z 的 形状 < 时 ，X; 出 现 的 概率 p( Xi |<) 
越 大 。 再 经 过 归 一 化 处 理 ， 我 们 可 以 定义 形状 先 验 概率 为 


o(X; Is) E(x, Ri)-! 


~ See Ry = 


998 I E 数 学 学 R 第 27 卷 





这 种 做 法 的 另 一 个 好 处 是 在 对 训练 样本 进行 存储 时 ， 不 必 对 每 个 训练 样本 的 形状 都 进行 存储 ， 
而 只 需 储存 代表 形状 样本 集合 中 的 样本 形状 即 可 。 一 般 形状 是 以 图 像 或 是 边缘 点 坐标 的 形状 储 
存 ， 需 要 大 量 的 存储 空间 ， 因 此 我 们 的 方法 既 减 小 了 算法 的 复杂 度 ， 又 节省 了 存储 空间 。 





4 ”实验 结果 


为 了 验证 此 方法 的 实验 效果 ， 我 们 对 病原 菌 图 像 进 行 分 类 测试 ， 本 节 中 用 到 的 实验 数据 均 
来 自 实际 的 病原 菌 显微镜 数据 ， 共 包含 7 类 的 病原 菌 图 像 ， 其 示例 图 像 如 图 1 所 示 ， 从 实验 数 
据 中 随机 选择 一 部 分 作为 训练 样本 ， 一 部 分 作为 测试 样本 进行 实验 。 在 实验 中 先 采 用 数学 形态 
学 方法 及 水 平 集 方法 3 进行 边缘 提取 。 然 后 ， 视 具体 情况 对 每 类 选择 1-3 个 代表 形状 进行 训 
练 。 最 后 用 训练 得 到 的 基于 形状 信息 的 贝 叶 斯 分 类 器 对 测试 样本 进行 分 类 。 具 体 处 理 情况 与 分 
类 结果 见 表 1， 为 了 与 传统 的 Bayes 分 类 方法 进行 对 比 ， 表 1 中 同时 列 出 了 不 引入 形状 先 验 概 
率 ， 直 接 采 用 传统 特征 ， 运 用 Bayes 方法 直接 对 样本 集 进行 分 类 得 到 的 正确 率 结果 。 








4、 链 格 胞 5. Eie 











图 1: 示例 病原 菌 图 像 


Rl: 实验 结果 


























病原 菌 名 称 | 训练 样本 数 | 代表 形状 数 | 测试 样本 数 | 传统 方法 正确 率 | 本 文 方 法 正确 率 
T 
1 白粉 | 10 1 43 | 83.7% | 100% 
2. 棒 胞 | 14 3 120 66.7% | 93.3% 
3AE vee 14 1 27 63.0% 96.3% 
4. 链 格 胞 5 | 2 12 100% 75% 
= 下 | 
5. 43e 6 | 2 17 76.5% I 94.1% 
6. | 11 El 2 345 95.1% 81.7% 
1 

















从 表 中 可 以 看 出 ， 我 们 方法 的 分 类 正确 率 达 到 了 89.2%, GASH) Bayes 方法 相 比 正 确 率 有 
了 较 明 显 的 提升 ， 另 一 方面 ， 由 于 引入 了 “代表 形状 ”的 概念 ， 对 于 每 一 个 类 别 ， 仅 需 记 录 
训练 样本 中 具有 代表 性 的 样本 的 图 像 与 形状 信息 ， 这 减 小 了 分 类 器 对 存储 量 的 要 求 。 同 时 ， 
对 于 每 一 个 测试 样本 ， 不 需要 同 每 一 个 训练 样本 的 形状 均 进 行 较为 繁琐 的 相似 性 配 准 和 迭代 计 
算 ， 而 只 需 与 相对 较 少 的 代表 形状 相对 形状 比较 ， 注 意 到 代表 形状 个 数 与 全 部 训练 样本 个 数 
之 比 12/63 = 19.0% 仅 为 大 约 1/5， 代 表 形 状 的 引入 有 效 的 减 小 了 系统 分 类 的 计算 复杂 度 ， 
在 Matlab 环境 中 ， 对 每 个 测试 样本 进行 分 类 平均 消耗 的 时 间 约 为 20 秒 。 综 上 ， 本 系统 可 以 达 
到 并 且 可 以 满足 实用 的 分 类 精度 与 时 间 复 杂 度 要 求 ， 达 到 了 预期 的 效果 。 
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本 文 提出 了 一 种 基于 形状 信息 的 贝 叶 斯 方法 ， 主 要 是 引入 形状 特征 的 一 种 新 的 表示 方法 ， 
实现 对 单一 物体 图 像 的 分 类 。 采 用 标准 形状 本 身 ， 使 得 标准 形状 信息 没有 一 点 损失 。 通 过 图 像 
配 准 ， 确 定 样本 与 标准 形状 之 间 的 相似 度 ， 用 相似 度 的 倒数 刻画 根据 形状 样本 属于 各 类 别 的 概 
率 ， 最 后 采用 Bayes 方法 分 类 。 图 像 处 理 方法 在 这 个 分 类 过 程 中 起 了 重要 的 作用 ， 不 仅 如 一 般 
图 像 识别 问题 一 样 ， 需 要 经 过 图 像 去 噪 、 去 模糊 、 增 强 边缘 和 提取 边缘 等 过 程 ， 而 且 引用 了 图 
像 配 准 方法 。 这 种 方法 对 形状 具有 明显 差异 的 单一 物体 图 像 的 分 类 效果 很 好 ， 计 算 速 度 也 很 
快 。 但 是 对 多 个 物体 图 像 的 个 体 识 别 分 类 还 有 困难 ， 特 别 是 ， 对 出 现 个 体 间 相 互 重 登 的 情况 ， 
识别 效果 还 很 差 。 尽 管 我 们 曾 用 基于 形状 先 验 分 割 方法 提取 边缘 ， 但 识别 的 效果 不 理想 ， 有 关 
这 方面 的 内 容 还 有 待 于 进一步 的 研究 。 

致谢 : 本 文中 所 使 用 的 图 像 资料 及 相关 生物 学 知识 由 中 国 农业 科学 院 蔬 菜花 卉 研究 所 提供 。 
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Abstract: In this paper, a new Bayes classification algorithm based on the shape information is 
proposed to classify the objects in the image. In this method, an energy functional which indicates the 
similarity of different shapes is introduced to calculate the prior probability of the shape information by 
applying the image edge extraction and image registration algorithms, and then the objects are clustered 
by the Bayes method with some posterior probabilities of other features. The presented algorithm has 
been applied to a practical pathogeny bacteria image classification problem, and the experimental 
results show the high efficiency of our algorithm, which not only reduces the feature dimensions of 
samples, but also improves the classification accuracy. Moreover, it can fulfill the requirement of 
computing speed in the practical problem. 
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